Claude 3大揭秘:超越GPT-4的未知黑科技!小白也能看懂!(附使用教程)

2024/3/6

# 一、Claude 3 简介

3 月 4 日,OpenAI 最大的竞争对手 Anthropic 发布了新一代 AI 大模型系列 ——Claude 3。

img

该系列包含三个模型,按能力由弱到强排列分别是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。(ps 我目前使用的是 GPT4,感兴趣的同学可以看一下我的开通教程2024 最新升级 GPT Plus 教程 (opens new window),和 Claude 3 大同小异)

img

与此同时,为了介绍自家的这三款模型,Anthropic 更是一口气发了一份长达 42 页的技术报告,报告地址:https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf

img

下图是 Claude 3 系列模型与其他同类型模型在多个能力评估基准上的对比:

img

其中,能力最强的 Opus 在多项基准测试中得分都超过了 GPT-4 和 Gemini 1.0 Ultra,在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准。 值得一提的是,Opus 不仅在各项 AI 系统常用评估标准中表现出色,如本科级别专业知识(MMLU)、研究生级别专家推理(GPQA)、基础数学(GSM8K),而且在这些领域中都取得了领先业界的性能,堪称业内佼佼者

尤为引人注目的是,在处理复杂任务时,Opus 展现出了几乎与人类相媲美的理解和表达能力,是 AGI 领域的领跑者。

不仅如此,Claude 3 Opus 在 LSAT、MBE、高中数学竞赛 AMC 和 GRE 等一系列考试中的表现同样令人瞩目,成绩和 GPT-4 不相上下,甚至大比分超越。

img

# 二、模型特点

通过阅读 Anthropic 发布的公告和技术报告,我们可以发现本次的模型主要有以下特点:

超长上下文

更少拒绝回复

强大的识别图像能力

响应速度超快

# 超长上下文

Claude 3 系列型号在首次发布时最初提供了约 200K 的上下文窗口。然而,官方声明指出,所有三个模型均具备处理超过 100 万 token 输入的能力,并将此功能提供给需要增强处理能力的特定用户。

为了有效地处理长上下文提示,模型需要强大的召回能力。 Needle In A Haystack(NIAH)评估衡量模型可以从大量数据中准确回忆信息的能力。Anthropic 通过在每个提示中使用 30 个随机的 Needle/question 对在不同的众包文档库上进行测试,增强了该基准的稳健性。Claude 3 Opus 不仅实现了近乎完美的召回率,超过 99%的准确率。而且在某些情况下,它甚至识别出了评估本身的局限性,意识到「针」句子似乎是人为插入到原始文本中的。 img

这一结果不仅突显了 Claude 3 Opus 在处理大量信息时的出色表现,还展示了其在理解上下文并对其进行精准回溯方面的卓越能力。这种高度的准确性和对评估限制的敏感性使其在各种应用场景中都表现得相当出色。

# 更少拒绝回复

以前的 Claude 模型经常因缺乏对语境的深刻理解而做出不必要的拒绝,这表明其在处理用户请求时存在一定的局限性。然而,Anthropic 在这一领域取得了显著的进展:相较于前几代模型,即使用户的提示接近系统底线,Opus、Sonnet 和 Haiku 拒绝回答的可能性明显降低。

如下所示,Claude 3 模型对请求表现出更为细致的理解,能够识别真正有害的提示,并且拒绝回答无害提示的频率更低。这意味着新一代的 Claude 模型在语境理解方面取得了实质性的改进,增强了对用户请求的敏感性,使得拒绝回答更加准确而精细。这一优越性不仅提高了模型的应用范围,还增强了用户与系统之间的交互质量,为用户提供更加满意和精准的服务。

img

# 强大的识别图像能力

虽然 GPT-4 也具备识别图像的能力,然而通过一个评测识别能力的榜单以及官方演示视频可以明显看出,Claude 3 的表现非常出色,能够精准捕捉细节。

从以下榜单可见,Claude 3 Opus 的识别性能与我们认为是最强大的视频/图片理解模型之一的 GPT-4V 相媲美,甚至在"Science Diagrams"领域显著领先 GPT-4V。Claude 3 不仅展示了出色的识别性能,还在复杂的视觉功能上与其他顶尖模型相媲美。它们能够处理多种视觉格式的数据,包括照片、图表、图形和技术图表。 img Anthropic 表示,他们的一些客户的知识库中超过 50%的内容以各种数据格式编码,例如 PDF、流程图或演示幻灯片。因此,新模型强大的视觉能力极大地提升了其在实际应用中的实用性,为处理多样化数据提供了极大的帮助。这一创新不仅使 Claude 3 在图像理解方面表现卓越,还为用户提供了更为全面和高效的信息处理能力。

# 响应速度超快

Claude 3 模型可以支持实时客户聊天、自动补充和数据提取等响应必须立即且实时的任务。

Anthropic 表示,Claude 3 Haiku 是最快的模型,适用于需要即时响应的场景。它可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文(约 10k tokens)。

# 三、如何使用

目前,用户可免费使用 Claude 3 Sonnet 模型(https://claude.ai/chats);如果想使用最强大的 Opus 版本需要开通会员;Haiku 模型即将推出。

官网地址:https://www.anthropic.com/,但是 Opus,和 GPT plus 一样,收费是 20 美元/月img目前 Claude3 的升级和 Openai 一样,都不支持国内用户使用信用卡支付,推荐大家可以试试使用虚拟银行卡进行升级(ps 我目前使用的是 GPT4,感兴趣的同学可以看一下我的开通教程2024 最新升级 GPT Plus 教程 (opens new window),和 Claude 3 大同小异)